Ejercicio 10


Estas preguntas debe responderse utilizando el conjunto de datos Weekly, que es parte del paquete ISLR. Estos datos son de naturaleza similar a los datos de Smarket del laboratorio de este capítulo, excepto que contienen 1.089 retornos semanales durante 21 años, desde principios de 1990 hasta finales de 2010.

PUNTO A: Produzca algunos resúmenes numéricos y gráficos de los datos semanales. ¿Parece haber algún patrón?



PUNTO B: Utilice el conjunto de datos completo para realizar una regresión logística con Dirección como respuesta y las cinco variables de retardo más Volumen como predictores. Utilice la función de resumen para imprimir los resultados. ¿Alguno de los predictores parece ser estadísticamente significativo? Si es así,¿cuáles?



PUNTO C: Calcule la matriz de confusión y la fracción general de predicciones correctas. Explique lo que le dice la matriz de confusión sobre los tipos de errores cometidos por la regresión logística.



PUNTO D, E, F, G Y H: Ahora ajuste el modelo de regresión logística usando un período de datos de entrenamiento de 1990 a 2008, con Lag2 como único predictor. Calcule la matriz de confusión y la fracción general de predicciones correctas para los datos retenidos (es decir, los datos de 2009 y 2010). Repita de nuevo el procedimiento propuesto pero usando LDA, QDA Y KNN con K=1. ¿Cuál de estos métodos parece proporcionar los mejores resultados con estos datos?



PUNTO I: Experimente con diferentes combinaciones de predictores, incluidas las posibles transformaciones e interacciones, para cada uno de los métodos. Informe las variables, el método y la matriz de confusión asociada que parece proporcionar los mejores resultados sobre los datos retenidos. Tenga en cuenta que también debe experimentar con los valores de K en el clasificador KNN.